Публикации с тэгом "Document Object Model"

СТАТЬЯ Методы защиты контента от автоматического копирования и парсинга

Эта статья написана Сычевым Игорем (@SychevIgor) с моими комментариями и уточнениями. Есть несколько сотен сайтов с информацией о банкоматах и отделениях. Необходимо написать программу, с помощью которой можно создать собственную базу данных. Задача не настолько сложная по сравнению с задачей сбора этих данных вручную. Но иногда вашей задачей может стать защита данных от автоматического копирования (краулинга). Собственно об этом и поговорим в этой статье. Работа с DOM деревом Любой HTML докумен...

Александр Краковецкий 9 окт 2011, 09:25 4124 комментарии

СТАТЬЯ Извлечение данных из веб-ресурсов

XML Resource Description Framework SPARQL RSS Atom (standard)

Содержание серии статей под общим названием "Извлечение данных из веб-ресурсов". Введение 1. Форматы представления данных в вебе XML, RDF / OWL / SPARQL, RSS / Atom / OPML. (ASP.NET RSS Toolkit) Формат CSV Формат JSON Формат OData 2. Подходы к извлечению данных из веб-ресурсов Семантические элементы HTML5 Регулярные выражения и парсинг XML, aнализ DOM дерева, визуальный подход 3. User Agents Введение Война браузеров или Что делает "Mozilla" в Internet Explorer User Agent? User Agent Style Sheets...

Александр Краковецкий 25 фев 2011, 03:03 3877 комментарии

СТАТЬЯ Знакомимся с Data Extracting SDK. Часть 1

Document Object Model Cascading Style Sheets Uniform Resource Identifier Trident (layout engine) String (computer science)

Data Extracting SDK – независимая разработка, которая позволяет создавать приложения для извлечения, анализа и сохранения данных. Также может быть использована для написания собственных поисковых роботов и инстументов для работы с большими объемами данными. Data Extracting SDK использует библиотеку Microsoft.mshtml для получения DOM-дерева HTML страницы и информации об HTML элементах. Страница на codeplex: http://extracting.codeplex.com/ (последняя версия, о которой идет речь в статье, скоро буд...

Александр Краковецкий 11 фев 2011, 05:02 5286 комментарии

СТАТЬЯ Internet Explorer 9 Beta: новые возможности для разработчиков

Internet Explorer 9 User interface Windows Presentation Foundation JavaScript Dell

Совсем недавно стала доступна последняя версия браузера Internet Explorer 9 Beta, которая вызвала большой ажиотаж у многих разработчиков, дизайнеров и верстальщиков. В статье предлагается расширенный обзор новых возможностей. Внешний вид Графический интерфейс стал более аскетичным и не перегруженным. Правда, UI не написан на WPF, как этого многие ожидали. В общем смотрим сами: Внешний вид IE9 Новый JavaScript движок: Chakra Эти результаты были получены для Dell Optiplex (3.0 GHz Core 2 Duo Intel...

Александр Краковецкий 15 сен 2010, 20:50 4805 комментарии

СТАТЬЯ Подходы к извлечению данных из веб-ресурсов

Data URI scheme HTML Document Object Model XPath XML

В предыдущей статье мы рассмотрели основные понятия и термины в рамках технологии Data Mining. Сегодня более детально остановимся на Web Mining и подходах к извлечению данных из веб-ресурсов. Web Mining — это процесс извлечения данных из веб-ресурсов, который, как правило, имеет больше практическую составляющую нежели теоретическую. Основная цель Web Mining — это сбор данных (парсинг) с последующим сохранением в нужном формате. Фактически, задача сводится к написанию HTML парсеров, и как раз об ...

Александр Краковецкий 23 июл 2010, 14:11 4306 комментарии

СТАТЬЯ Улучшения JavaScript Intellisense в VS 2010

.NET Framework IntelliSense Web developer The Express JavaScript

Это двадцатая статья из серии, которую я посвятил выходу VS 2010 и .NET 4. Сегодняшний пост охватывает некоторые замечательные улучшения, которые грядут в Intellisense у VS 2010 и бесплатной Visual Web Developer 2010 Express для JavaScript. Он стал быстрее загружаться с большими скриптовыми файлами и поддерживает завершение выражений для еще большего количества сценариев, по сравнению с предыдущими версиями Visual Studio. Улучшения в JavaScript Intellisense Гораздо сложнее предоставлять поддержк...

Евгений Жарков 14 апр 2010, 22:31 2287 комментарии

СТАТЬЯ [Перевод] VS 2010: Граф зависимостей и DGML

Dependency graph XML Document Object Model Microsoft Visual Studio Video

Чем ближе мы подбираемся к запуску VS2010, те больше я рассказываю про новые понравившиеся возможности, которые появились в 2010 версии. В данном посте, я расскажу о графах зависимостей и поддержке DGML. Генерация графов Я, почти, уверен, что вы присоединились к команде разработчиков, а не создавали ее. Более того, вы не получили идеальную документацию или архитектуру проектов. Так как же понять с чем мы имеем дело? Вот тут и помогут нам графы зависимостей. Генерация графа зависимостей происход...

Евгений Жарков 3 фев 2010, 03:03 3542 комментарии

СТАТЬЯ Data Extracting SDK: Часть 1

Data URI scheme Software development kit .NET Framework Web 2.0 HTML

Data Extracting SDK написан на .NET Framework 3.5 и содержит средства для извлечения и анализа данных из текстовых файлов и web-ресурсов. Прислушиваясь к результатам опроса выкладываю первую версию Data Extracting SDK CTP (Community Technical Preview) на всеобщее обозрение. Основные возможности: Html Processing — загрузка, анализ html DOM анализ — получение ссылок, изображений, таблиц извлечение ссылок, фильтры, возможность написания своих фильтром, глубокий анализ сайта извлечение электронных а...

Александр Краковецкий 31 авг 2009, 12:28 2847 комментарии

СТАТЬЯ Очищаем веб-страницы от информационного шума

Data mining JavaScript Adobe Flash Links (web browser) Document Object Model

Предыдущие мои статьи были, в основном, о теоретической части Data Mining, сегодня хочу рассказать о практическом примере, который используется в кандидаткой диссертации (в связи с этим данный пример на данном этапе развития нельзя считать полноценным работающим проектом, но прототипом его считать можно). Будем очищать веб-страницы от «информационного шума». Так в чем же проблема? Проблема заключается в том, что добрая половина веб-сайтов содержит кучу ненужной информации на страницах — так назы...

Александр Краковецкий 6 авг 2009, 11:15 4896 комментарии

Поиск по сайту